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重复 数据 删除 技术 的 发 展 综述 


EPIS 云 晓 春 郭 莉 
摘要 : 随 着 信息 化 程度 的 不 断 提高 ， 数 据 量 不 断 爆 炸 式 增长 。 这 给 数据 存储 管理 带 来 了 越 来 越 大 的 压力 ， 
特别 是 数据 中 所 存在 的 重复 内 容 给 存储 空间 造成 了 极 大 的 浪费 。 为 了 提高 存储 空间 利用 率 ， 重 复数 据 删除 
《数据 消 元 ) 技术 应 运 而 生 。 本 文 就 重复 数据 删除 技术 的 背景 、 分 类 、 关 键 技术 、 应 用 场景 、 发 展现 状 及 
未 来 发 展 趋势 进行 了 总 结 分 析 。 
关键 词 : 重复 数据 删除 数据 消 见 存储 优化 


1 技术 背景 


数据 量 的 爆炸 式 增长 以 及 大 规模 集中 使 得 数据 重复 所 导致 的 空间 浪费 问题 越 来 越 严 重 
这 促使 了 数据 消 元 技术 的 出 现 和 发 展 。 目 前 ， 数 据 消 宛 方面 的 研究 工作 已 经 在 消 元 率 提 升 、 
性 能 优化 以 及 可 靠 性 保证 等 方面 取得 了 一 系列 有 价值 的 成 果 ， 有 效 地 推动 了 该 技术 的 应 用 。 
在 面向 服务 的 云 存 储 系统 中 , 用 户 数 据 的 大 规模 集中 使 得 数据 消 见 更 加 必要 , 同时 也 对 该 技 
术 提 出 了 新 的 挑战 。 为 了 满足 不 同 用 户 对 消 元 率 、 可 靠 性 以 及 性 能 方面 的 不 同 需求 ， 存 储 系 
统 必 须 能 够 对 包括 消 见 率 、 可 靠 性 及 性 能 的 服务 质量 进行 有 效 的 控制 和 调节 , 同时 存储 系统 
规模 的 增加 也 使 得 节能 、 保 证 服务 质量 (QoS) 以 及 降低 能 耗 成 为 数据 消 元 存储 中 需要 解决 
的 关键 问题 。 目 前 数据 消 匈 的 研究 成 果 都 无 法 完全 解决 这 些 问 题 , 不 能 满足 面向 服务 的 大 规 
模 存 储 系统 的 实际 需要 。 作 者 所 申请 的 自然 科学 基金 项 目 “ 面 向 服务 质量 和 能 耗 优化 的 数据 
消 见 存储 技术 研究 ”将 重点 针对 该 问题 进行 研究 , 目标 是 建立 面向 服务 质量 和 能 耗 优化 的 数 
据 消 见 理论 和 技术 体系 。 我 们 首先 研究 了 数据 消 匈 的 关键 属性 , 提出 了 数据 消 元 服务 质量 描 
述 和 评价 方法 体系 ; 然后 对 数据 消 匈 的 能 耗 进行 了 研究 , 提出 了 面向 数据 消 见 的 能 耗 分 析 方 
法 及 能 耗 优化 策略 ; 最 后 , 研究 了 多 目标 数据 消 匈 技术 , 基于 服务 质量 收益 和 能 耗 代价 函数 ， 
实现 了 面向 服务 质量 和 能 耗 优化 的 数据 消 匈 技术 。 本 课题 的 研究 内 容 符合 存储 技术 的 发 展 需 
求 ， 具 有 重要 的 理论 意义 和 实际 价值 。 


下 面 对 重 复数 据 删 除 技术 的 相关 背景 及 发 展 状 况 进行 分 析 和 益 述 。 


重复 数据 删除 (数据 消 宛 ) 的 目的 是 从 全 局 上 消除 存储 系统 中 存在 的 元 余数 据 ， 包 括 文件 
内 部 以 及 文件 之 间 的 见 余数 据 , 而 传统 的 数据 压缩 只 能 够 消除 文件 内 部 的 见 余 信息 。 相 比 之 
下 , 重复 数据 删除 技术 的 数据 压缩 效果 更 加 明显 , 针对 具体 应 用 数据 的 重复 数据 删除 率 可 达 
300:1 甚至 更 高 ， 而 数据 压缩 技术 的 消 见 率 只 有 2:1 左右 。 因 为 重复 数据 删除 技术 对 数据 存 
储 具 有 重大 的 作用 和 意义 , 近年 来 该 技术 也 得 到 了 广泛 的 关注 , 成 为 数据 存储 领域 的 研究 热 
点 上 60， 关注 度 在 数据 存储 和 保护 领域 的 5 个 研究 热点 问题 中 处 于 第 一 位 。 


在 初期 , 大 量 的 研究 工作 都 集中 在 重复 数据 删除 率 的 提升 方面 , 通过 不 断 减 小 重复 数据 
删除 粒度 来 提高 重复 数据 删除 率 。EMC 的 Centera AAI, windows 的 单 实例 存储 系统 
采用 了 以 文件 为 单位 的 重复 数据 删除 方法 。 该 方法 的 优点 是 实现 简单 、 计 算 速 度 快 ， 但 是 检 
测 粒 度 较 粗 ， 重 复数 据 删除 效果 差 。 为 了 提高 重复 数据 删除 率 ， 研 究 者 提出 了 定 长 块 的 检测 
方法 ,将 一 个 文件 分 成 固定 长 度 的 数据 块 ， 以 数据 块 为 单位 进行 消 见 。 该 方法 的 优点 是 计算 
速度 快 、 对 数据 变化 反应 比较 敏感 ， 主 要 缺陷 是 在 文件 中 部 分 内 容 被 插入 或 者 修改 的 情况 会 
严重 影响 重复 数据 删除 效果 。 该 方法 被 应 用 到 了 Venti 归档 存储 系统 中 丫 。 为 了 进一步 提高 
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消 见 率 ， 研 究 者 针对 定 长 块 重复 数据 删除 存在 的 问题 ， 提 出 了 变 长 块 的 重复 数据 删除 方法 ， 
即使 用 拉 宾 指纹 (Rabin fingerprint) 技术 或 者 其 它 相 似 函 数 确定 数据 块 的 边界 号 ， 将 变化 的 
内 容 划分 到 一 个 数据 块 中 ， 典 型 的 应 用 有 Shark, Deep Store” 和 等。 另外， 研究 者 还 提出 了 
字 节 级 的 重复 数据 删除 机 制品 ， 先 查找 相似 度 比 较 高 的 数据 块 ， 然 后 采用 差异 压缩 机 制 计 
算数 据 块 之 间 的 差异 ， 仅 存储 差异 部 分 的 内 容 ， 常 用 的 差异 压缩 算法 有 zDelta 47, 


随 着 重复 数据 删除 技术 在 海量 存储 系统 中 的 应 用 , 重复 数据 碘 除 机 制 对 存储 系统 否 吐 率 
的 影响 逐渐 体现 出 来 ,重复 数据 删除 的 性 能 问题 逐渐 引起 了 研究 者 的 关注 。 文 献 [4,16,20,24] 
针对 该 问题 展开 了 一 系列 的 研究 : 文献 [4] 提出 通过 布 隆 过 滤 (Bloom Filter)、 基 于 局 部 性 的 
缓存 等 机 制 来 降低 消 风 过程 中 的 磁盘 读 写 次 数 ， ER ome ee 文献 [16] 通 过 
将 数据 块 打 包 成 定 长 的 数据 对 象 来 提高 数据 读 写 性 能 ， 文 献 [20] 提 出 了 一 个 两 阶段 重复 数据 
删除 机 制 , 通过 将 随机 的 小 的 磁盘 刘 志 写 调整 为 序列 化 的 天 的 磁盘 读 写 来 提高 重复 数据 副 除 的 
吞吐 率 ; 文献 [24] 利 用 局 部 性 原理 解决 了 重复 数据 块 查询 的 瓶颈 问题 ， 利 用 有 限 的 内 存 获得 
了 较 高 的 吞吐 率 ;， 文献 [25] 针 对 一 些 缺 少数 据 局 部 性 特征 的 系统 ， 提 出 基于 文件 相似 性 的 特 
点 来 降低 重复 数据 删除 过 程 中 查询 次 数 的 方法 ， 以 提高 数据 消 元 性 能 。 


重复 数据 删除 技术 在 提高 存储 空间 利用 率 的 同时 , 会 导致 一 个 数据 块 被 多 个 文件 对 象 所 
引用 ， 一 个 数据 块 的 丢失 会 破坏 文件 的 可 用 性 ， 从 而 降低 了 数据 存储 可 靠 性 。 为 了 满足 一 些 
关键 存储 系统 的 可 靠 性 需要 , 有 研究 者 提出 采用 宛 余 复制 或 者 纠 删 编码 的 方法 提高 存储 可 靠 
VE: 3f C$, L. You) 在 文献 [7] 通 过 量化 分 析 表 明 引 用 度 高 的 数据 块 应 该 获得 较 高 的 见 余 
RE. 并 给 出 了 采用 见 余 复制 策略 提高 数据 存储 可 靠 性 的 方法 , 然而 该 文献 没有 给 出 数据 块 匈 
余 度 的 定量 计算 方法 , 也 没有 对 采用 元 余 机 制 后 的 数据 可 靠 性 、 存 储 空 间 开 销 等 因素 进行 定 
量 的 评估 和 分 析 ; 巴 格 瓦特 CD. Bhagwat) 在 上 述 工 作 的 基础 上 ， 给 出 了 一 种 根据 数据 块 引 
用 度 计 算 宛 余 度 的 方法 上 5， 并 采用 了 宛 余 复制 机 制 来 提高 数据 存储 可 靠 性 ， 然 而 该 工作 没 
有 对 数据 块 见 余 度 、 存 储 空间 开销 以 及 存储 可 靠 性 进行 整体 评估 , 没有 给 出 最 佳 见 余 度 的 计 
算 方法 ; 清华 大 学 的 刘 川 意 在 文献 [23] 提 出 了 一 种 采用 重复 数据 删除 技术 的 归档 存储 系统 的 
可 靠 性 保证 机 制 R-ADMAD， 该 机 制 采 用 ECC 编码 机 制 对 存储 对 象 进行 编码 ， 并 分 布 到 一 
个 隐 余 组 的 存储 节点 存放 ， 并 可 通过 一 个 分 布 动态 恢复 机 制 进行 失效 恢复 。 


2 重复 数据 删除 技术 的 分 类 


2.1 基于 重复 内 容 识别 方法 的 分 类 
(1) 基于 散 列 识别 


该 方法 通过 数据 的 散 列 值 来 判断 是 否 是 重复 数据 。 对 于 每 个 新 数据 块 都 生成 一 个 散 列 ， 
如 果 数 据 块 的 散 列 与 存储 设备 上 散 列 索引 中 的 一 个 散 列 匹配 , 就 表明 该 数据 块 是 一 个 重复 的 
数据 块 。Data Domain、 飞 康 、 昆 腾 的 DXi 系列 设备 都 是 采用 SHA-1、MD-5 等 类 似 的 散 列 
算法 来 进行 重复 数据 删除 。 


基于 散 列 的 方法 存在 内 置 的 可 扩展 性 问题 。 为 了 快速 识别 一 个 数据 块 是 否 已 经 被 存储 ， 
这 种 基于 散 列 的 方法 会 在 内 存 中 拥有 散 列 索 引 。 随 痢 数据 块 数量 增加 ， 该 索引 也 随 之 增长 。 
一 旦 索引 增长 超过 了 设备 在 内 存 中 保存 它 所 支持 的 容量 , 性 能 会 急速 下 降 ， 同 时 磁盘 搜索 会 
比 内 存 搜索 更 慢 。 因 此 ， 目 前 大 部 分 基于 散 列 的 系统 都 是 独立 的 ， 可 以 保持 存储 数据 所 需 的 
内 存量 与 磁盘 空间 量 的 平衡 。 这 样 的 设计 使 得 散 列 表 可 以 一 直 不 致 变 得 太 大 。 


Q) 基于 内 容 识别 


~ 


pi 
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该 方法 采用 内 符 在 数据 中 的 文件 系统 的 元 数据 识别 文件 ,与 其 数据 存储 库 中 的 其 他 版 本 
进行 逐 字 节 地 比较 , 找到 该 版 本 与 前 一 个 已 存储 版 本 的 不 同 之 处 并 为 这 些 不 同 的 数据 创建 一 
个 增 量 文 件 。 这 种 方法 可 以 避免 散 列 冲突 , 但 是 需要 使 用 支持 该 功能 的 应 用 设备 以 提取 元 数 
据 。 


(3) 基于 ProtecTier 虚拟 磁带 库 (VTL) 的 技术 


这 种 方法 像 基于 散 列 的 方法 产品 那样 将 数据 分 成 块 ， 并 且 采 用 自 有 算法 决定 给 定 的 数据 
块 是 否 与 其 他 数据 块 相似 , 然后 与 相似 块 中 的 数据 进行 逐 字 节 的 比较 ， 以 判断 该 数据 块 是 否 
已 经 被 存储 。 


2.2 基于 去 重 粒度 的 分 类 
(1) 全 文件 层次 的 重复 数据 删除 
以 整个 文件 为 单位 来 检测 和 删除 重复 数据 ， 计 算 整 个 文件 的 哈 希 值 ， 然 后 根据 文件 哈 希 
值 查找 存储 系统 中 是 否 存在 相同 的 文件 。 这 种 方法 的 好 处 是 在 普通 硬件 条 件 下 计算 速度 非常 
快 ， 这 种 方法 的 缺点 是 即使 不 同文 件 存在 很 多 相同 的 数据 ， 也 无 法 删除 文件 中 的 重复 数据 。 
(2) 文件 块 消 宛 
将 一 个 文件 按 不 同 的 方式 划分 成 数据 块 ， 以 数据 块 为 单位 进行 检测 。 该 方法 的 优点 是 计 
算 速 度 快 、 对 数据 变化 较 敏感 。 
(3) FERH 
从 字 节 层次 查找 和 删除 重复 的 内 容 ， 一 般 通 过 差异 压缩 策略 生成 差异 部 分 内 容 。 字 节 级 
消 宛 的 优点 是 去 重 率 比 较 高 ， 缺 点 就 是 去 重 速度 比较 慢 。 
2.3 基于 消 元 执行 次 序 的 分 类 
(1) 在 线 式 消 宛 
在 线 处 理 的 重复 数据 删除 是 指 在 数据 写 入 磁盘 之 前 执行 重复 数据 删除 。 其 最 大 的 优点 是 
经 济 高 效 ， 可 以 降低 对 存储 容量 的 需求 ， 并 且 不 需要 保存 还 未 进行 重复 数据 删除 的 数据 集 。 
在 线 处 理 的 重复 数据 删除 减少 了 数据 量 , 但 同时 也 存在 一 个 问题 ， 处 理 本 身 会 减 慢 数据 吞吐 


速度 。 正 是 因为 重复 数据 删除 是 在 写 入 到 磁盘 之 前 进行 的 , 因此 重复 数据 删除 处 理 本 身 就 是 
个 单 点 瓶颈 。 


(2) 后 处 理 式 消 匈 


后 处 理 的 重复 数据 删除 ， 也 被 称 为 离线 重复 数据 删除 ， 是 在 数据 写 到 磁盘 后 再 执行 重复 
数据 删除 。 数 据 先 被 号 入 到 临时 的 磁盘 空间 ， 之 后 再 开始 重复 数据 删除 ， 最 后 将 经 过 重复 数 
据 删 除 的 数据 拷贝 到 末端 磁盘 。 由 于 重复 数据 删除 是 数据 写 入 磁盘 后 再 在 单独 的 存储 设备 上 
执行 的 ,因此 不 会 对 正常 业务 处 理 造 成 影响 。 管 理 员 可 以 随意 制订 重复 数据 删除 的 进程 。 通 
常 先 将 备份 数据 保留 在 磁盘 上 再 进行 重复 数据 删除 。 企 业 在 需要 时 可 以 更 快速 地 访问 最 近 存 
储 的 文件 和 数据 。 而 后 处 理 方式 的 最 大 问题 在 于 它 需 要 额外 的 磁盘 空间 来 保存 全 部 还 未 删除 
的 重复 数据 集 。 


2.4 基于 实现 层次 的 分 类 
(D 基于 软件 的 重复 数据 删除 
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在 软件 层次 ， 重 复数 据 删 除 可 以 有 两 种 集成 方式 ， 既 可 以 将 软件 产品 安 闭 在 专用 的 服务 


器 上 ， 也 可 以 将 其 集成 到 


— 


NetBackup 以 及 Sepaton 公司 的 DeltaStor 存储 软件 等 。 


(2) 基于 硬件 的 重复 数据 删除 


基于 人 硬件 的 重复 数据 删除 3 
统 、 备 份 平台 或 者 网 络 附 加 存储 (NAS) 等 一 般 


这 些 系 统 自身 完成 


E 复 数据 删除 功能 。 


基于 人 硬件 的 重复 数据 删除 的 优点 是 高 性 能 、 


删除 。 


目前 基于 硬件 的 重复 数据 删除 系统 
网 络 附加 存储 备份 产品 


出 除 操作 对 上 层 的 应 有 


昌都 是 透明 的 。 这 种 设备 的 他 


可 扩展 性 和 相对 无 中 断 部 署 ， 并 且 重 复数 气 


备份 /归档 软件 中 。 基 于 软件 的 重复 数据 删除 的 部 署 成 本 比较 低 ， 
旦 是 基于 软件 的 重复 数据 删除 在 安装 中 容易 中 断 运行 ， 维 护 也 比较 困难 。 


基于 软件 的 重复 数据 删除 产品 有 EMC 公司 的 Avamar、Symantec 公司 的 Veritas 


要 由 存储 系统 自己 完成 数据 的 删 减 ， 例 如 : 在 虚拟 磁带 库 系 
目的 的 存储 系统 中 融入 重复 数据 删除 机 制 ， 由 


点 就 是 部 署 成 本 高 于 基于 软件 的 重复 数据 


要 包括 虚拟 磁带 库 〈virtual tape library; VTL) ) 和 
HKRX, 例如 : Data Domain 公司 的 DD410 系列 、Diligent Technologies 


公司 的 ProtecTier VTL、 昆 腾 公 司 的 DXi3500 和 DXi5500 系列 、 飞 康 的 VTL. ExaGrid Systems 


公司 的 网 络 附加 存储 备份 产品 以 及 NetApp 的 NearStore R200 和 FAS 存储 系统 。 


3 相同 数据 重复 数据 删除 技术 


相同 数据 重复 数据 删除 技术 是 将 数据 进行 划分 ， 找 出 相同 的 部 分 ， 并 且 以 指针 取代 相同 


的 数据 存储 。 


3.1 相同 文件 重复 数据 删除 技术 


相同 文件 重复 数据 删除 技术 是 以 文件 为 
粒度 查找 重复 数据 的 方法 中 。 如 图 1 所 示 ， 以 


整个 文件 为 单位 计算 出 哈 希 值 (SHA-1 或 者 


MD5)， 然 后 与 已 存 


赌 的 哈 希 值 进行 比较 。 如 “ 


果 发 现 相 同 的 哈 希 值 则 认为 该 文件 为 重复 文 
件 ， 不 进行 存储 ; 否则 ， 该 文件 为 新 文件 ， 将 
该 文件 及 其 哈 希 值 存储 到 系统 中 。 


EMC 的 Centera RR, windows 的 单 实 


例 存储 系统 外 采用 了 这 种 数据 消 匈 方法 ,利用 
Windows2000 的 SIS (single instance storage) 
技术 对 具有 20 个 不 同 Windows NT 映像 的 服 
务 器 进行 测试 , 结果 表明 总 共 节 省 了 58% 的 存 
储 空间 。 该 方法 的 优点 是 重复 数据 删除 的 速度 
比较 快 ， 缺 点 是 不 能 删除 不 同文 件 内 部 的 相同 数据 。 


3.2 固定 长 度 分 块 的 重复 数据 删除 技术 


基于 固定 长 度 分 块 的 重复 数据 删除 方法 如 图 2 所 示 ， 将 数据 对 象 (文件 ) 分 成 互 不 重大 的 
定 长 块 ， 然 后 计算 每 个 数据 块 的 哈 希 值 (SHA-1 值 或 者 MD5 值 )， 并 将 该 哈 希 值 与 已 存储 的 
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哈 希 值 


f 


信 县 ; 
据 块 ， 


及 引用 信息 。 


则 ， 


该 方法 存在 的 主要 问 


进行 检索 比较 ， 如 果 发 现 相 同 的 哈 希 值 
数据 块 ， 只 存储 其 哈 希 值 及 引用 
该 数据 块 是 新 数 
存储 该 数据 块 、 其 哈 希 值 


AI 


当 向 数据 对 象 
从 中 删除 数据 有 


Wd. 


中 插入 数据 或 者 
会 导致 数据 块 


信 


罗技 术 快报 


Information Technology Letter 


, 


题 是 : 


边界 无 


数据 块 Di、D:、 


法 对 齐 ， 严 重 影响 重复 数 
据 删 除 的 效果 。 如 图 3 所 示 ， 数 
据 对 和 象 的 版 本 1 生成 了 n 个 定 长 
.…、Dn， 版 本 2 


在 版 本 1 的 基础 上 插入 了 部 分 内 


容 (阴影 部 分 所 示 )， 


对 版 本 2 分 块 产 生 的 数据 块 Di、 


对 网 络 存储 的 Venti 归档 存储 
系统 ， 该 系统 采用 该 技术 大 约 节省 了 30% 的 空 


3.3 基于 内 容 分 块 算法 的 重复 数据 删除 技术 


针对 上 述 问题 ， 


研究 者 提出 了 采用 基于 内 


容 分 块 的 重复 数据 删除 方法 (如 图 4 所 示 )。 


该 方法 的 思路 是 通过 一 个 不 册 
角 定 数据 块 分 界 点 ， 采 用 拉 宾 指纹 算法 计算 
滑动 窗口 的 指纹 ， 如 果 满 足 预定 条 件 ， 就 将 
始 位 置 作为 数据 块 的 结尾 ， 这 样 
并 计算 指纹 实现 对 数据 对 
象 的 分 块 。 为 了 避免 极端 ! 
长 或 者 过 短 的 情况 ， 可 以 设 定数 据 块 的 下 限 
对 于 每 一 个 划 
哈 希 


f 


该 窗口 的 
通过 不 断 滑 动 窗 


日 


TIL EB. 
可 以 通过 比较 


i 滑动 的 窗口 来 


Z 


青 况 下 ， 数 据 块 过 


分 得 到 的 数据 块 ， 就 
值 来 确定 重复 的 数据 


块 ， 共 体 过 程 与 


F 面 描述 的 相同 。 


Kl 
确定 的 ， 因 
的 重复 数据 山 
gi 
删除 的 内 容 不 在 边 


有 内 容 插入 或 者 删除 
界 滑动 


为 数据 块 是 基于 内 容 而 不 是 基于 长 度 
此 能 够 有 效 地 解决 固 
| 除 方法 存在 的 问题 。 


定 长 度 分 块 
当 数 据 对 
如 果 插 入 或 者 
区 域 ， 该 边界 


m 


zi 
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则 认为 该 数据 块 


基于 定 长 块 的 重复 
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Z 


数据 消除 示意 


EE I, D». 


D'n H, 只 有 D Æ] 


xí]. 


:SHA-1 哈 希 : 


与 已 有 的 险 希 
值 进行 比较 


图 4. 


内 容 分 块 重复 数据 检测 方法 


E 复 的 数据 块 , 不 存储 该 


DD', 都 不 是 重复 的 数据 块 ， 合 a 文件 F 的 版 本 2 
得 数据 对 象 中 从 插入 位 置 到 
结尾 的 重复 数据 都 无 法 被 消 — HAS 一 一 
除 ， 影 响 了 消 宛 率 。 。 

该 方法 已 经 在 很 多 系统 ggg. D B Do. b 
:得 了 应 用 , 典型 的 应 用 是 
获得 了 应 用 ,典型 的 应 用 是 针 El. 定 长 块 重复 数据 消除 技术 所 存在 的 问题 


E 


EIR ERIA 


不 会 改变 。 当 搬入 的 内 容 产生 一 个 新 的 边界 时 ， 一 个 数据 块 会 分 成 两 个 数据 块 ， 否 则 数据 块 


不 会 变化 。 如 果 变 化 的 内 容 发 生 在 滑动 窗口 


H 


除 内 容 只 影响 相 邻 的 一 个 或 者 两 个 数据 块 ， 


INAS 


测 出 对 象 之 间 更 多 的 重复 数据 。 如 


内 ， 可 能 会 破坏 分 界 数据 块 ， 导致 两 个 数据 块 合 
成 一 个 数据 块 ， 或 者 两 个 数据 块 之 间 的 边界 发 生变 化 ,产生 新 的 数据 块 。 因 
余数 据 块 不 会 受 影 响 , 这 就 使 得 该 方法 能 够 检 
图 5 所 示 ， 当 文件 中 插入 部 分 内 容 后 ,分 块 时 将 该 内 容 划 


此 ， 插 入 或 者 删 


分 到 一 个 数据 块 ， 


该 方法 的 3 
Shark", Deep Store ^£, 3 
应 用 于 低 带 宽 网 络 文件 系统 

(Low Bandwidth File Sys- p 
tem, LBFS) 中 。 在 低 带宽 网 6 ut 
络 文件 系统 中 , 系统 对 分 块 长 
度 加 上 了 上 下 边界 长 度 , 以 避 
免 数据 块 太 长 和 太 短 的 现象 。 


3.4 基于 滑动 块 的 重复 数据 删除 技术 


内 容 划 分 块 方法 解决 了 字 节 插入 和 删除 
的 问题 ， 但 又 引入 了 变 长 块 的 存储 问题 。 在 
存储 系统 中 ， 变 长 块 的 存储 组 织 比较 复杂 。 
针对 该 问题 ， 出 现 了 基于 滑动 块 的 重复 数据 
删除 检测 消除 方法 由 (如 图 6 所 示 )， 解 决 了 
定 长 块 和 内 容 划 分 块 所 存在 的 问题 。 


滑动 块 方法 采用 了 rsync Checksum 
(文件 同步 备份 校 验 和 ) 和 滑动 窗口 方法 进 
行 分 块 ，rsync Checksum 算法 具有 计算 速 
度 快 、 效 率 高 的 优点 。 计 算 的 校 验 和 
(Checksum) 值 与 以 前 存储 的 值 进行 比较 ， 
如 果 匹 配 上 ， 则 计算 数据 块 的 SHA-L 值 进 行 
比较 来 检测 重复 数据 。 


， 保 持 其 后 续 的 数据 块 不 变 ， 从 而 


型 应 用 有 文件 F 的 版 本 1 


Ea 


-x Y 
D2 Ds ... 


上 后 而 重复 的 数据 块 都 能 够 被 删除 。 


文件 F 的 版 本 2 


AU 


插入 的 内 容 
m 
d i nct ` a 
Dn Dı D2 Ds ... Dan 
图 5. 一 个 内 容 分 块 的 示例 图 


: >EN 


: pues i [与 已 有 的 校 验 
BR ERE I. 
'SHA-1 S: 


与 已 有 的 哈 希 
值 进行 比较 


WRI 


图 6. 


如 果 发 现 重 复数 据 块 ， 则 将 重复 数据 块 记录 下 来 ， 并 移动 滑动 窗口 滑 过 该 重复 块 ， 继 续 


进行 重复 数据 检测 。 另 外 , 将 从 上 个 块 结 
当 Checksum 值 或 者 哈 希 值 没 有 匹配 


尾 到 新 检测 的 重复 块 之 间 的 数据 
， 则 


继 


块 记录 并 存储 下 来 。 
续 数 据 检测 过 程 。 如 果 在 发 现 重 复 块 之 前 滑 


动 窗口 移动 的 距离 达到 定 长 块 的 长 度 , 则 计 
数据 块 的 校 验 。 


滑动 块 方 法 通过 检测 对 象 的 每 一 个 块 解决 了 数据 插入 问题 。 
有 周围 的 块 发 生变 化 ， 后 面 的 块 仍然 能 够 通过 该 算法 识别 和 检测 。 同 理 ， 当 删除 部 分 
H MAN ARH 


口 


» 75 


5 
WEARS, XEATZ JG EOS BUS SEU 


算 该 块 的 哈 希 值 


并 将 该 值 存储 下 来 供 将 来 进行 


3 


如 果 部 分 内 容 插入 数据 对 


该 方法 进行 检测 。 


3.5 基于 fingerdiff 算法 的 重复 数据 删除 技术 


针对 基于 内 容 分 块 算法 额外 存储 空间 开销 比较 大 的 问题 ,而 


究 者 提出 了 fingerdiff 算 


法 申 ， 其 核心 思想 是 将 没有 变化 的 块 尽 可 能 地 合并 ， 以 减少 数据 块 的 元 数据 所 占用 的 存储 空 
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间 。 该 技术 包括 三 个 主要 过 程 : 〈1) 一 个 文件 按照 基于 内 容 分 块 算法 进行 数据 块 划分 ;(2) 
每 个 子 块 按 照 fingerdiff 设置 最 大 子 块 数 进行 合并 ; (3) 每 个 块 用 哈 希 函数 计算 出 它 的 指纹 
直 ， 然 后 对 比 已 存储 的 数据 块 指 纹 值 ， 如 果 检 测 到 相同 的 指纹 值 ， 则 删除 其 对 应 的 数据 块 ， 
否则 将 大 块 进 行 拆 分， 找到 最 小 的 不 同 数据 块 进行 存储 ， 其 余 块 仍然 保持 合并 状态 。 


3.6 基于 数据 特征 的 重复 数据 消除 算法 


基于 内 容 分 块 的 块 划分 策略 虽然 在 一 定 程度 上 解决 了 定 长 块 所 存在 的 问题 , 但 是 针对 特 
定 类 型 的 数据 文件 ,仍然 无 法 获得 较 好 的 数据 块 划 分 。 针 对 该 问题 ， 出现 了 基于 数据 特征 的 
数据 块 划分 策略 。 例 如 针对 PPT 类 型 文件 的 划分 策略 ， 根 据 PPT 文件 的 格式 按 每 页 PPT 划 
分 成 不 同 的 数据 块 ， 从 而 有 效 地 将 相同 的 PPT 页 面 消除 。 还 有 人 提出 了 根据 数据 类 型 动态 
选择 不 同 分 块 策略 的 重复 数据 删除 技术 ， 例 如 : 针对 PPT 文件 和 DOC 文件 采用 基于 文件 特 


p 


征 的 重复 数据 消除 策略 ， 针 对 可 执行 文件 采用 定 长 块 的 分 块 策略 。 
4 相似 数据 重复 数据 删除 技术 


> 除了 通过 删除 完全 相同 的 数据 可 以 实现 数据 消 见 外 ,还 可 以 通过 相似 数据 的 检测 与 编码 
© 节省 存储 空间 ， 提 高 存储 空间 的 利用 率 。 相 似 数据 重复 数据 删除 包括 相似 数据 检测 和 编码 两 
^ 个 阶段 ， 相 似 数据 检测 技术 有 以 下 几 种 。 


Shingle 检测 技术 通过 为 每 个 文档 提取 一 组 特征 外 将 文档 相似 性 问题 简化 为 集合 相似 性 
问题 。Shingle 检测 技术 简单 易 实 现 ， 适 用 范围 广 ， 但 它 的 计算 开销 很 高 ， 而 且 检测 相似 数 
据 的 精度 取决 于 Shingle 的 取样 技术 ， 容 易 出 现 较 大 的 偏差 。 


布 隆 过 滤器 是 一 种 用 位 数组 表示 的 集合 ""， 支持 查询 菜 个 元 素 是 否 在 该 集合 当中 。 布 隆 
过 滤器 弥补 了 shingle 检测 技术 计算 开销 大 的 缺陷 , 在 性 能 和 相似 数据 精度 之 间 取 得 了 平衡 。 
布 隆 过 滤器 通过 位 操作 进行 数据 匹配 ， 所 以 速度 快 、 计 算 开 销 很 小 。 


通过 模式 匹配 挖掘 数据 的 特征 也 可 以 进行 相似 数据 的 检测 。 模 式 匹配 技术 的 匹配 算法 是 
利用 一 定数 量 的 公共 字 串 来 进行 文件 间 的 相似 性 查找 与 判别 。 该 检测 技术 需要 对 整个 文件 进 
行 扫描 ， 所 以 开销 也 比较 大 。 


在 相似 数据 检测 技术 基础 上 ， 对 有 和 较 大 相似 度 的 数据 进行 编码 处 理 ， 同 样 能 为 整个 系统 
节省 大 量 的 存储 空间 。 然 而 相似 数据 压缩 技术 存在 着 编码 效率 和 适用 范围 的 问题 。 


5 重复 数据 删除 的 性 能 提升 技术 


重复 数据 删除 技术 在 提高 存储 空间 利用 率 的 同时 ,对 系统 数据 访问 性 能 带 来 了 一 定 的 影 
响 。 这 是 因为 重复 数据 的 检测 等 过 程序 要 耗费 大 量 的 系统 资源 , 严重 影响 了 存储 系统 访问 性 
能 。 针 对 该 问题 ， 目 前 也 出 现 了 一 系列 的 解决 方案 。 


针对 内 存 空间 无 法 容纳 所 有 数据 索引 的 问题 , 数据 域 (Data Domain) 采 用 了 三 级 查询 ; 
布 隆 过 滤器 过 滤 、 哈 希 缓冲 查询 和 哈 希 文件 查询 。 首 先 在 内 存 中 的 布 隆 过 滤器 中 进行 查找 ， 
一 个 哈 希 用 一 个 m Are OBESSE S || n 个 块 指纹 值 的 存在 信息 ， 如 果 布 隆 过 滤器 指 
出 这 个 块 不 存在 ， 则 这 个 块 一 定 不 存在 ; 如 果 布 隆 过 滤器 指出 该 数据 块 存 在 ， 表 明 该 数据 块 
可 能 存在 ， 再 到 哈 希 缓存 中 进行 查找 ; 如 果 存 在 则 说 明 该 数据 块 存在 ， 否 则 再 到 磁盘 上 去 查 


01 


ry 4 


”关于 “Shingle” 请 参阅 引文 [9] 
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复数 据 删 除 技术 的 发 展 综述 


询 。 对 于 数据 在 磁盘 上 的 组 织 采 用 了 基于 流 的 块 排列 技术 ， 以 有 效 利用 数据 的 局 部 性 ， 提 高 
缓存 的 命中 率 。 


针对 数据 访问 局 部 性 特征 不 明显 的 系统 , 研究 者 提出 了 基于 文件 相似 性 的 特点 来 降低 重 
复数 据 删 除 过 程 中 的 查询 次 数 ， 以 提高 重复 数据 删除 性 能 ; 另外 ， 有 人 也 采用 了 两 阶段 的 重 
复数 据 删 除 机 制 叶 ， 通 过 将 随机 的 小 磁盘 读 写 调整 为 序列 化 的 大 的 磁盘 读 写 提 高 重复 数据 
删除 的 吞吐 率 ， 还 有 人 采用 了 两 层次 的 索引 技术 来 降低 磁盘 读 写 次 数 巾 ， 提 高 重复 数据 删 
除 的 吞吐 率 。 


分 析 现 有 技术 可 以 看 出 ， 提 高 重复 数据 删除 吞吐 率 的 关键 是 降低 磁盘 读 写 次 数 ， 现 有 方 
法 都 是 通过 各 种 策略 来 尽量 减少 数据 块 检 索 过 程 中 磁盘 的 读 写 次 数 。 


6 重复 数据 删除 技术 的 应 用 


6.1 数据 备份 系统 


重复 数据 删除 技术 为 数据 保护 领域 带 来 革命 性 突破 ， 有效 地 改善 了 基于 磁盘 数据 保护 的 
成 本 效益 。 因 为 在 传统 数据 保护 中 无 法 实现 重复 数据 删除 , 往往 采用 廉价 的 磁带 库 作为 备份 
设备 。 人 磁带 备份 在 备份 窗口 、 恢 复 速度 方面 难以 满足 用 户 的 需求 。 现 在 ， 基 于 磁盘 的 数据 保 
护 方案 如 虚拟 磁带 库 被 广泛 采用 ,并 且 在 未 来 会 继续 增长 。 备份 到 虚拟 人 磁带 库 或 其 他 基于 磁 
盘 的 备份 已 经 缩小 了 备份 窗口 ， 改 善 了 备份 和 恢复 能 力 , 但 由 于 数据 量 的 不 断 增加 ， 我们 所 
要 备份 的 数据 越 来 越 多 ,面临 容量 膨胀 的 压力 。 重复 数据 删除 技术 的 出 现 为 最 大 限度 降低 存 
储 容量 找到 有 效 的 方法 。 

6.2 归档 存储 系统 

重复 数据 删除 技术 对 归档 存储 也 非常 重要 。 由 于 参考 数据 的 数量 不 断 增 长 ， 而 “法 规 遵 
从 ”要 求 数据 在 线 保留 的 时 间 更 长 ， 并 且 由 于 高 性 能 需求 需要 采用 磁盘 进行 归档 ， 因 此 ， 企 
业 一 旦 真正 开始 进行 数据 的 归档 存储 就 会 面临 成 本 问题 。 理 想 的 归档 存储 系统 应 能 满足 长 期 
保存 归档 数据 的 需求 , 并 且 其 总 体 拥有 成 本 也 必须 低 于 生产 系统 的 成 本 。 重复 数据 删除 技术 


mili 


c 通过 消除 见 余 实现 高 效率 的 归档 存储 ， 从 而 实现 最 低 的 成 本 。 目前 ， 归 档 存 储 系 统 的 重复 
数据 删除 技术 主要 是 基于 哈 希 方法 ， 产 品 的 销售 形态 是 以 内 容 寻 址 存储 (CAS，Content 
© Addressable Storage) 技 术 为 主 ， 分 为 纯 软 件 和 存储 系统 两 类 。 


6.3 远程 灾 备 系统 


在 远程 灾 备 系统 中 ， 需 要 将 大 量 的 数据 迁移 到 异地 系统 。 随 着 数据 量 的 不 断 增 长 ， 数 据 
传输 的 压力 越 来 越 大 , 通过 重复 数据 删除 技术 在 数据 传输 前 检测 并 删除 重复 的 数据 ,可 以 有 
效 地 减少 传输 的 数据 量 ， 提 高 数据 传输 速度 ， 典 型 产品 如 飞 康 的 MicroScan 软件 。 


7 总 结 和 发 展 趋势 


通过 上 述 分 析 可 以 看 出 ， 根 据 应 用 的 实际 需求 ， 研 究 者 分 别 对 消 见 率 、 性 能 以 及 可 靠 性 
展开 了 大 量 的 研究 ， 取 得 了 很 多 有 价值 的 研究 成 果 。 但 在 面向 服务 的 存储 系统 中 ， 不同 用 户 
或 者 应 用 对 于 重复 数据 删除 率 、 性 能 及 可 靠 性 等 属性 具有 不 同 的 需求 , 为 了 满足 这 种 多 样 化 
需求 ， 就 需要 根据 用 户 需求 对 重复 数据 删除 率 、 性 能 及 可 靠 性 等 属性 进行 动态 调整 号 。 然 
而 目前 这 方面 的 研究 还 比较 初步 ， 无 法 满足 面向 服务 的 大 规模 存储 系统 的 应 用 需求 。 
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另外 ， 存 储 规模 的 不 断 扩 大 导致 能 耗 问 题 越 来 越 突 出 ， 目 前 存储 系统 能 耗 已 经 达到 IT 

系统 能 耗 的 40%， 并 且 这 个 比例 还 在 不 断 增加 。 虽 然 研 究 者 针对 存储 系统 的 能 耗 问 题 以 及 

能 耗 优化 方法 进行 了 一 系列 的 研究 工作 ,取得 了 很 多 有 价值 的 研究 成 果然 而 忽略 了 重复 数 

据 删 除 对 存储 系统 能 耗 的 影响 。 根 据 前 期 的 研究 结果 发 现 , 重复 数据 删除 机 制 会 增加 存储 系 

统 的 能 耗 , 并 且 会 影响 现 有 能 量 优化 机 制 的 效果 , 服务 质量 和 能 耗 之 间 存 在 一 定 的 矛盾 关系 。 

因此 ,在 对 重复 数据 删除 的 服务 质量 进行 研究 的 过 程 中 ， 还 需要 考虑 系统 的 能 耗 因 素 ， 实 现 

对 服务 质量 和 能 量 开销 的 有 效 平衡 和 调整 。 

综 上 所 述 ， 我 们 可 以 看 到 以 下 需要 研究 的 问题 : (1) 如 何 挖掘 不 同类 型 的 数据 特征 ， 快 

速 准确 地 检测 到 重复 数据 ， 同 时 有 效 降低 空间 开销 ; (2) 如 何 克 服 数据 相似 性 检测 技术 设计 

上 存在 的 局 限 性 ， 在 融合 各 技术 特征 的 同时 ， 通 过 结合 统计 学 和 数据 挖掘 领域 的 各 种 技术 ， 

对 数据 特征 进行 充分 的 分 析 和 挖掘 , 通过 提高 对 其 规律 性 的 认识 来 弥补 重复 数据 删除 技术 上 

的 不 足 ， 提 高 整体 系统 的 性 能 ; (3) 如 何 根据 不 断 出 现 的 新 的 压缩 理论 与 技术 或 更 有 效 的 数 

学 模型 ， 通 过 引进 压缩 算法 开发 新 的 技术 或 将 已 有 技术 结合 在 一 起 ， 有 效 地 优化 储存 空间 ; 

(4) 如 何在 已 有 的 基于 增加 宛 余 数据 ， 具 有 简单 高 效 特 点 的 可 靠 性 技术 的 基础 上 ， 殉 服 其 存 

储 开销 和 系统 性 能 方面 存在 的 局 限 性 ,针对 不 同 的 数据 类 型 ,适度 地 增加 宛 余数 据 来 提高 系 

2 统 的 可 靠 性 或 通过 引入 其 他 机 制 改进 可 靠 性 设计 ; (5) 如 何在 应 用 重复 数据 删除 技术 的 过 程 

e 中 ， 在 简单 性 和 性 能 两 方面 做 出 这 种 选择 ， 在 融合 各 种 现 有 技术 的 同时 ， 提 供 通用 型 、 可 扩 
d 展 性 和 自 适应 性 ， 尽 可 能 减少 重复 数据 检测 和 删除 所 带 来 的 系统 开销 。 


lim] 


zn 


ri 


参考 文献 : 


[1] H. M. Sung, W. Y. Lee, J. Kim, and Y.W. Ko, Design and Implementation of Clustering File Backup 
Server Using File Fingerprint, Soft. Eng., Arti. Intel., Net. & Para./Distri. Comp., 2008, pp.61-73. 


[2] C. Liu, D. Ju, Y. Gu, Y. Zhang and D. Wang,Semantic Data De-duplication for Archival Storage 
Systems, the 13th Asia-Pacific conference on Computer Systems Architecture Conference, Aug. 2008, 


pp.1-9. 


[3] Y. Won, R. Kim, J. Ban, and J. Hur, PRUN: Eliminating Information Redundancy for Large Scale 
Data Backup System, Proceedings of the 2008 International Conference on Computational Sciences 
and Its Applications, 2008, pp 139-144. 


[4] B. ZHU, H. LI, AND H. PATTERSON, Avoiding the disk bottleneck in the data domain 
deduplication file system. In Proceedings of the 6th USENIX Conference on File And Storage 
Technologies (FAST"08), San Jose, California,February 2008, pp. 1-14. 


[5] S. Quinlan, S. Dorward. Venti: A new approach to archival storage. In Proceedings of the 2002 
Conference on File and Storage Technologies (FAST), Monterey, California, USA, 2002, pp.89-101. 


[6] L. L. You. Efficient Archival Data Storage. Techncial Report UCSC-SSRC-06-04, University of 
California, Santa Cruz, June 2006. 


[7] L You, K Pollack and D. Long, Deep store: An archival storage system architecture, Proceedings of 
the 21st IEEE International Conference on Data Engineering, IEEE Press, Santa Cruz, CA, 
USA,2005, pp. 804—815. 


[8] | S. Annapureddy, M. J. Freedman, and D. Mazières. Shark: Scaling file servers via cooperative 
caching. In Proceedings of the 2nd Symposium on Networked Systems Design and Implementation 
(NSDI'05), Boston, MA, May 2005, pp. 129-142. 


[9] A. Z. Broder. Identifying and filtering near-duplicate documents. In: Proceedings of the 11th Annual 
Symposium on Combinatorial Pattern Matching. Montreal, Canada: Springer-Verlag New York, Inc., 
Jun. 2000. 1-10. 


64 


[10] 
[11] 
[12] 


[13] 


[14] 
[15] 


[16] 


[17] 
[18] 
[19] 
[20] 
[21] 


[22] 


[23] 


[24] 


[25] 


作者 简介 : 
王 树 鹏 : 


云 晓 春 : 
Sp di: 


lirli 
pe 


复数 据 删 除 技术 的 发 展 综述 


M. W. Storer, K. M. Greenan, D. D. E. Long, and E. L. Miller. Secure data deduplication. In 
Proceedings of the 2008 ACM Workshop on Storage Security and Survivability, Oct. 2008, pp 1-10. 


G. Forman, K. Eshghi, J. Suermondt, Efficient Detection of Large Scale Redundancy in Enterprise 
File Systems, | HPL-2008-30R2, HP Laboratories, 2008. 


D. Trendafilov, N. Memon, and T. Suel. zdelta: An efficient delta compression tool. Technical Report 
TR-CIS-2002-02, Polytechnic University, June 2002. 


H. S. Gunawi, N. Agrawal, A. C. Arpaci-Dusseau, R. H. Arpaci-Dusseau, and J. Schindler. 
Deconstructing commodity storage clusters. In Proceedings of the 32nd Int'l Symposium on 
Computer Architecture, June 2005, pp. 60—71. 


W. J. Bolosky, S. Corbin, D. Goebel, and J. R. Douceur.. Single instance storage in Windows 2000. 
http://research.microsoft.com/farsite/WSS2000.pdf. 


M. O. Rabin. Fingerprinting by random polynomials. Technical Report TR-15-81, Center for 
Research in Computing Technology, Harvard University, 1981. 


C. Liu, Y. Lu, C. Shi, and G. Lu, ADMAD: Application-Driven Metadata Aware De-duplication 
Archival Storage System, the 15th IEEE international workshop on Storage Network Architecture 
and Parallel I/O(SNAPI '08), 2008, pp.29-35. 


F. Douglis, A. Iyengar. Application-specific deltaencoding via resemblance detection. In Proceedings 
of the 2003 USENIX Annual Technical Conference, San Antonio, Texas, June 2003. 


L. Xu, Hydra: A Platform for Survivable and Secure Data Storage Systems, Proc. Int'] Workshop 
Storage Security and Survivability, Virginia, USA, Nov. 2005. 


J.J. Wylie, M.W. Bigrigg, J.D. Strunk, and G.R. Ganger. Survivable Information Storage Systems, 
IEEE Computer, 33(8),2000: 61-68, Aug 2000. 


T. Yang, H. Jiang, D. Feng and Z. Niu. DEBAR: A Scalable High-Performance De-duplication 
Storage System for Backup and Archiving, Technical Report TR-UNL-CSE-2009-0004 , HUST ,2008 


舒 继武 ， 网 络 存储 领域 若干 技术 发 展 与 启示 ， 
http://www.ccf.org.cn/web/resource/shujiwu.pdf, 2008 


D. Bhagwat, K. Pollack, D. D. E. Long, and T. Schwarz, Providing High Reliability in a Minimum 
Redundancy Archival Storage System, Proceedings of the 4th ACM international workshop on 
Storage security and survivability, Virginia, USA, 2008, pp. 1-10. 


Chuanyi Liu, Yu Gu, Linchun Sun, Bin Yan, Dongsheng Wang: R-ADMAD: high reliability 
provision for large-scale de-duplication archival storage systems. ICS 2009: 370-379. 


Mark Lillibridge, Kave Eshghi, Deepavali Bhagwat, Vinay Deolalikar, Greg Trezise, and Peter 
Camble. Sparse indexing: large scale, inline deduplication using sampling and locality. In FAST '09: 
Proccedings of the 7th conference on File and storage technologies, page 111-123, Berkeley, CA, 
USA, 2009. USENIX Association. 


Deepavali Bhagwat, Kave Eshghi, Darrell D.E. Long, Mark Lillibridge. Extreme Binning: Scalable, 
Parallel Deduplication for Chunk-based File Backup. In IEEE MASCOTS 2009, London, UK, 
September, 21st, 2009 


中 国 科学 院 计算 技术 研究 所 信息 安全 研究 中 心 数据 存储 与 保护 小 组 组 长 ， 博 士 
wangshupeng@software. ict. ac. cn 

中 国 科 学 院 计 算 技 术 研 究 所 研究 员 

中 国 科 学 院 计 算 技 术 研究 所 信息 安全 研究 中 心 主任 ， 研 究 员 


65 


